May 31, 2025 5:00 AM
Jun 28, 2025 3:32 AM

注册好了师姐。上次这篇文章的数据获得性部分提到The raw genomic sequencing data from the GTEx project V8 are available in the database of dbGaP with accession number phs000424.v8.p2 [https://www.ncbi.nlm.nih.gov/gap/]. 似乎dbGaP中phs000424的原始数据需要申请,申请条件还蛮苛刻的。然后我试了一下后面的数据,比如The gene expression data are available for download from the GTEx portal:https://www.gtexportal.org/home/downloads/adult-gtex/bulk_tissue_expression. The time information of 838 individuals in the GTEx cohort is available from Zenodo at https://doi.org/10.5281/zenodo.7215362.感觉这两个网站下载的基因表达数据、样本注释信息和时间信息与文章代码可获得性部分给的其中第一个R代码0_0_genotype.R里导入的数据差别还挺大的,只有代码可获得性部分的GitHub中给出的split_pos基因位置信息是一模一样的。而且这个R脚本好像是它处理数据的第一步,不知道为什么它导入的数据像是之前已经处理过的,跟网站上下载的不一样。是不是我哪里忽略了过程啊,还是跟dbGaP中phs000424的原始数据有关?

文献里数据和代码可获得性中提到的:

  1. dbGaP中phs000424的原始数据(即the GTEx project V8):需要申请
  2. 基因表达数据:可在GTEx portal下载,有GTEx_Analysis_2017-06-05_v8_RNASeQCv1.1.9_gene_reads.gct等
  3. 时间信息:可在zenode下载,有Adipose-Subcutaneous.txt等
  4. GWAS summary statistics
  5. summary statistics of rhyQTLs:在Supplementary Data 2.
  6. Github:包括0_0_genotype.R等代码、基因位置信息(split_pos)、Supplementary Data 2和Supplementary Data 6

0_0_genotype.R里用到的:

  1. 时间信息('GTEx_donor_time_science.txt'):未找到
  2. 基因位置信息(split_pos):能找到
  3. SNV文件头('head_sub.txt'):未找到
  4. 表达数据('00_data/CPM_covariate_remove/', tissue, '.txt'):即某个组织的表达数据,但好像已经过处理:未找到
  5. 似乎是样本的全基因组测序变异数据(结合基因位置信息可得到样本的SNV):未找到。GTEx_Analysis_2017-06-05_v8_WholeGenomeSeq_838Indiv_Analysis_Freeze.SHAPEIT2_phased.MAF01.hwe_MAF059.vcf.gz ,该文件可能包含:
    1. 变异数据:838个个体的全基因组测序变异(SNP、Indel等),经过质控(MAF≥1%、HWE过滤)。
    2. 单倍型信息:已通过SHAPEIT2进行定相( phased),即每个样本的等位基因按染色体单倍型排列。
    3. 元数据:如染色体位置、参考/替代等位基因、基因型质量分数等(标准VCF字段)。

导入时间信息'GTEx_donor_time_science.txt'
导入基因位置信息(dir, cat, "split_pos/", pos_file))
#导入SNV文件头(dir, 'head_sub.txt'))
#导入表达数据(dir,'00_data/CPM_covariate_remove/', tissue, '.txt'), header = T)

你提到的四个数据文件(时间信息、基因位置信息、SNV文件头、表达数据)通常是研究中使用到的中间数据或预处理数据,而不是直接从公共数据库下载的原始数据。这些文件可能是研究者根据特定需求从原始数据中提取或处理得到的。不过,你可以通过以下方式尝试获取这些数据或类似的替代数据:

GTEx_Analysis_v8_Annotations_SampleAttributesDS.txt

列名 描述
SAMPID 样本ID,唯一标识每个样本
SMATSSCR 组织来源描述
SMCENTER 测序中心
SMTS 组织类型
SMTSD 组织详细描述
SMUBRID 唯一的生物样本ID
SMTSISCH 组织采集方案
SMTSPAX PAXgene管的使用情况
SMNABTCH 核酸提取批次
SMNABTCHT 核酸提取批次类型
SMNABTCHD 核酸提取批次描述
SMGEBTCH 基因组提取批次
SMGEBTCHD 基因组提取批次描述
SMGEBTCHT 基因组提取批次类型
SMAFRZE 冷冻方法
SMGTC 基因分型芯片类型
SME2MPRT Exome测序平台
SMCHMPRS ChIP-seq平台
SMNTRART 核酸提取方法
SMNUMGPS 样本组数
SMMAPRT 测序平台
SMEXNCRT Exome测序中心
SM550NRM SNP Array标准化方法
SMGNSDTC 基因组测序日期
SMUNMPRT Unmapped Reads平台
SM350NRM SNP Array标准化方法(350)
SMRDLGTH RNA测序读长
SMMNCPB 最小覆盖深度
SME1MMRT Exome测序方法
SMSFLGTH 样本长度
SMESTLBS 样本重量(磅)
SMMPPD 样本处理日期
SMNTERRT 样本运输方式
SMRRNANM RNA质量控制指标
SMRDTTL RNA质量控制总分
SMVQCFL 质量控制标志
SMMNCV 核心变异
SMTRSCPT 测序协议
SMMPPDPR 样本处理日期(处理后)
SMCGLGTH 样本长度(处理后)
SMGAPPCT 基因组覆盖率
SMUNPDRD 未映射读取率
SMNTRNRT 核酸提取率
SMMPUNRT 样本处理率
SMEXPEFF Exome测序效率
SMMPPDUN 样本处理单位
SME2MMRT Exome测序方法(第二次)
SME2ANTI 抗体名称
SMALTALG 测序算法
SME2SNSE Exome测序灵敏度
SMMFLGTH 样本长度(第二次)
SME1ANTI 抗体名称(第一次)
SMSPLTRD 样本处理方法
SMBSMMRT 测序方法(Bisulfite)
SME1SNSE Exome测序灵敏度(第一次)
SME1PCTS Exome测序覆盖率(第一次)
SMRRNART RNA质量控制指标(第二次)
SME1MPRT Exome测序平台(第一次)
SMNUM5CD 样本编号
SMDPMPRT 测序平台(第二次)
SME2PCTS Exome测序覆盖率(第二次)
SAMPID SMATSSCR SMCENTER SMPTHNTS SMRIN SMTS SMTSD SMUBRID SMTSISCH SMTSPAX SMNABTCH SMNABTCHT SMNABTCHD SMGEBTCH SMGEBTCHD SMGEBTCHT SMAFRZE SMGTC SME2MPRT SMCHMPRS SMNTRART SMNUMGPS SMMAPRT SMEXNCRT SM550NRM SMGNSDTC SMUNMPRT SM350NRM SMRDLGTH SMMNCPB SME1MMRT SMSFLGTH SMESTLBS SMMPPD SMNTERRT SMRRNANM SMRDTTL SMVQCFL SMMNCV SMTRSCPT SMMPPDPR SMCGLGTH SMGAPPCT SMUNPDRD SMNTRNRT SMMPUNRT SMEXPEFF SMMPPDUN SME2MMRT SME2ANTI SMALTALG SME2SNSE SMMFLGTH SME1ANTI SMSPLTRD SMBSMMRT SME1SNSE SME1PCTS SMRRNART SME1MPRT SMNUM5CD SMDPMPRT SME2PCTS
GTEX-1117F-0003-SM-58Q7G B1 Blood Whole Blood 0013756 1188 BP-38516 05/02/2013 LCSET-4574 DNA isolation_Whole Blood_QIAGEN Puregene (Manual) 01/15/2014 Standard Exome Sequencing v3 (ICE)
GTEX-1117F-0003-SM-5DWSB B1 Blood Whole Blood 0013756 1188 BP-38516 05/02/2013 GTEx_OM25_Dec_01 Illumina OMNI SNP Array 01/28/2014 OMNI
GTEX-1117F-0003-SM-6WBT7 B1 Blood Whole Blood 0013756 1188 BP-38516 05/02/2013 LCSET-6056 PCR+ 30x Coverage WGS v2 (HiSeqX) 09/20/2014 WGS
GTEX-1117F-0011-R10a-SM-AHZ7F B1, A1 Brain Brain - Frontal Cortex (BA9) 0009834 1193 ChIP-Seq
GTEX-1117F-0011-R10b-SM-CYKQ8 B1, A1 7.2 Brain Brain - Frontal Cortex (BA9) 0009834 1193 BP-42319 RNA isolation_PAXgene Tissue miRNA 08/14/2013 RIP-Seq
GTEX-1117F-0226-SM-5GZZ7 0 B1 2 pieces, ~15% vessel stroma, rep delineated 6.8 Adipose Tissue Adipose - Subcutaneous 0002190 1214 1125 BP-43693 09/17/2013 LCSET-4804 RNA Extraction from Paxgene-derived Lysate Plate Based 03/05/2014 TruSeq.v1 RNASEQ 0.986026 345562 0.966793 0.990383 0.756726 23548 1 76 0.00240323 136 0 6.68332e+07 0.0329192 209558 6.74822e+07 8.79766e+06 23575 3.3158e+07 0 0.210067 0.990383 0.749449 6.68332e+07 0.00391915 1.44627e+07 8.9149e+06 1.45756e+07 144 1.46488e+07 1.19993e+07 0.00315785 1.46695e+07 50.0354 0.00310538 0.99474 0 50.1944
GTEX-1117F-0426-SM-5EGHI 0 B1 2 pieces, !5% fibrous connective tissue, delineated (rep) 7.1 Muscle Muscle - Skeletal 0011907 1220 1119 BP-43495 09/12/2013 LCSET-4764 RNA Extraction from Paxgene-derived Lysate Plate Based 02/09/2014 TruSeq.v1 RNASEQ 0.985786 145441 0.978816 0.990413 0.838961 20246 1 76 0.00241283 137 0 5.99636e+07 0.0209516 423484 6.05441e+07 9.60146e+06 20259 2.97858e+07 0 0.139855 0.990413 0.830918 5.99636e+07 0.00553754 1.31545e+07 8.38344e+06 1.31258e+07 139 1.31915e+07 1.15502e+07 0.00396788 1.33405e+07 50.2809 0.00699464 0.995041 0 49.9455

1. 时间信息(GTEx_donor_time_science.txt

2. 基因位置信息(split_pos/ 文件夹中的文件)

3. SNV 文件头(head_sub.txt

4. 表达数据(00_data/CPM_covariate_remove/ 文件夹中的文件)

示例代码

以下是一个示例代码,展示如何从 GTEx 数据门户下载和处理数据:

# 加载必要的包
library(data.table)

# 定义文件路径
dir <- "/path/to/your/data/"
tissue <- "Adipose-Subcutaneous"
pos_file <- "HLA_split_pos_aa"

# 下载时间信息
time_file <- "GTEx_donor_time_science.txt"
download.file("https://gtexportal.org/static/datasets/sampleAttributes/GTEx_v8_sample_attributes.tsv", 
              destfile = paste0(dir, time_file))

# 下载基因位置信息
pos_file_url <- "https://example.com/path/to/split_pos/HLA_split_pos_aa"  # 替换为实际的下载链接
download.file(pos_file_url, destfile = paste0(dir, "split_pos/", pos_file))

# 下载 SNV 文件头
head_file <- "head_sub.txt"
download.file("https://example.com/path/to/head_sub.txt", destfile = paste0(dir, head_file))

# 下载表达数据
expression_file <- paste0(tissue, ".txt")
download.file("https://gtexportal.org/static/datasets/expression/GTEx_Analysis_2017-06-05_v8_RNASeQCv1.1.9_gene_reads.gct", 
              destfile = paste0(dir, "00_data/CPM_covariate_remove/", expression_file))

# 读取表达数据
expression_data <- fread(paste0(dir, "00_data/CPM_covariate_remove/", expression_file), skip = 2)

总结

如果你有更多问题或需要进一步的帮助,请告诉我!

所需数据

图1a的分析主要涉及以下几个步骤:数据检索、建立遗传变异-基因对、评估基因节律性、评估基因节律性差异。以下是完成这些步骤所需的数据:

1. 基因型数据(Genotype Data)

2. 基因表达数据(Gene Expression Data)

3. 时间信息(Time Information)

4. 基因位置信息(Gene Position Information)

5. 基因注释数据(Gene Annotation Data)

6. SNV文件头信息(SNV Header Information)

7. 日志目录和输出目录

总结

完成图1a的分析需要以下数据:

  1. GTEx项目的全基因组测序数据(VCF格式):用于提取SNV。
  2. 基因表达数据(CPM格式):用于评估基因表达的节律性。
  3. 时间信息(供体的昼夜节律相位):用于确定样本的时间点。
  4. 基因位置信息(TSS及其上下游1Mb区域):用于确定顺式遗传变异区域。
  5. 基因注释数据:用于基因的功能注释。
  6. SNV文件头信息:用于解析VCF文件。

这些数据结合上述代码中的分析流程,可以完成从数据预处理到节律性评估的完整分析。